Nat Biomed Eng:利用深度学习从抗体序列中预测抗原特异性,优化抗体药物
抗体药物的优化耗时间耗资源、极具挑战
在抗体药物发现中,从靶点到苗头化合物阶段是一个成熟的过程,杂交瘤筛选、噬菌体展示筛选、酵母展示库通常都会产生一些潜在的先导候选药物。然而,先导候选药物的优化往往消耗了药物临床前开发阶段的大部分时间和成本。
这主要是由于先导候选药物的优化需要平行处理多个参数,包括表达水平、粘度、药代动力学、溶解度和免疫原性,这往往需要进行额外的工程设计。虽然噬菌体和酵母展示为高通量筛选大型突变体库(>1×109)提供了强有力的方法,然而它们主要用于增加对目标抗原的亲和力或特异性。此外,几乎所有的抗体都需要在哺乳动物细胞中以全长IgG的形式表达,这意味着剩余的开发和优化步骤必须在这种环境下进行。
深度学习可推断抗体序列-功能的复杂关系
神经网络的基本理念是通过模仿生物神经元的连接来学习变量之间的复杂关系。作为单层神经网络或感知器的延伸,深度学习包含了多个隐藏层来分析隐含在大型高维数据集中的关系。
近年来,随着深度测序和并行计算的发展,在具备适当的高质量训练数据的前提下,深度学习模型有能力推断出抗体序列和功能之间的复杂关系。
CRISPR突变+实验产生大量训练数据,模型建立
研究人员从曲妥珠单抗的DNA序列开始,使用CRISPR突变方法创建了约50,000个抗体变体,并分析抗体变体对抗原HER2的结合特异性。测序结果显示,分别有11,300和27,539个独特的结合抗体变体和非结合抗体变体。然后,所有结合抗体变体和非结合抗体变体的序列被用来训练深度神经网络。原始数据集的70%被用来训练模型,剩下的30%被分成测试数据集和验证数据集用于模型评估。
研究人员调研了各种模型,以评估它们从现有的测序数据中对结合抗体变体和非结合抗体变体进行分类的准确性和精确度,最终发现CNN深度学习模型的表现优于其他测试模型,因此专注于进一步优化该类模型。
用模型搜索7200万潜在抗体序列
为了进一步证明深度学习识别新的抗体变体序列的能力,作者随机选择了42个不同的抗体变体序列,其中30个是结合抗体变体,12个是非结合抗体变体。流式细胞计数发现,30个预测的结合抗体变体都是抗原特异性的(100%),12个预测的非结合抗体变体中有11个没有显示结合活性。
发现改良的抗体药物
进一步地,作者分析了前十个具有最高亲和力的抗体变体的可表达性、热稳定性和免疫潜力。发现其中五个抗体变体显示出与曲妥珠单抗相当或更好的表达量;所有十个抗体变体的热稳定性与曲妥珠单抗相当或更好;值得一提的是抗体变体1,其表达量与曲妥珠单抗相当,热稳定性有所提高,并且与曲妥珠单抗相比,抗体变体1大大降低了免疫原性的风险。
总结和讨论
在数据方面,利用临床批准的抗体曲妥珠单抗,研究人员进行了单点DMS和组合诱变,获得丰富的、高质量的抗体变体的训练数据。
在模型方面,研究人员选择CNN作为分类模型的基础,因为它代表了深度学习中最先进的方法。虽然其他机器学习方法如K-近邻、随机森林和支持向量机也很适合从输入数据中识别复杂的模式,然而随着数据集规模的不断扩大,深度神经网络的表现往往超过这些经典技术。此外,深度生成建模方法,如变异自动编码器和生成对抗网络,也可用于探索来自定向进化的诱变序列空间。
作者认为,未来的工作重点是在筛选过程中提高选择的严格性,或对预测概率和亲和力之间的相关性进行更详细的分析。而一旦抗体对目标抗原的亲和力处于有效的生物修饰的理想范围内,解决其他生物物理特性就成为抗体开发的重点,这也需要应用更严格的或额外的过滤器,进一步减少序列空间,最终找到跨越更多参数的最可开发的候选治疗药物。
1.https://www.nature.com/articles/s41551-021-00699-9
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
进入临床试验的AI设计的药物 汇总V1.0
AI药物研发公司Exscientia的理念、技术与特点
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
远程机器人实验室在AI药物发现中的应用价值与前景
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(五) 2018-2020的主要突破性事件
2020年AI + 药物研发全景概述:(四) 制药公司与AI的合作
2020年AI + 药物研发全景概述:(一) 概要
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
CDE关于发布《模型引导的药物研发技术指导原则》的通告(2020年第59号)